• 与戴雨森和季逸超聊,一幅Sora的信息拼图和中国大模型淘汰赛 - AI总结

    本文内容整理自播客 2024-03-11 张小珺jùn商业访谈录 与戴雨森和季逸超聊,一幅Sora的信息拼图和中国大模型淘汰赛

    从开年两件大事聊起:OpenAI发布Sora和Google推出开源模型Gemma

    1. Sora模型的发布时间比预期早很多,这一点让他们感到惊讶。季逸超表示,Sora的到来"比我们想象中要早特别多",这给了他很大的震撼。

    2. 尽管Sora的效果令人印象深刻,但从模型的底层结构来看,并没有翻天覆地的变革。戴宇森认为"其实它并没有在模型的底层的结构上有翻天覆地的变化"。

    3. OpenAI在数据、算力和工程技巧方面走在了前列,这是Sora能取得突破的关键。戴宇森认为"不管是从数据、从算力、从工程的技巧来讲,OpenAI还是走的非常的靠前"。

    4. Sora的出现意味着基于大模型的应用将迎来爆发式增长。戴宇森表示"现在我们终于有了一个可能,像大家说GPT3水平的这样一个SORA",这"意味着多么太深沉的一个爆发式的时刻的来临"。

    5. 对于Sora的确切模型大小、所需算力等细节,嘉宾们通过与业内人士交流得出一些猜测,但真正的情况还需亲自试用后才能完全确定。季逸超说"真正让我们能信服的还是得亲自去试用一下"。

    Sora背后的人:Tim和Bill是伯克利师兄弟,Bill在Meta是谢赛宁的实习生,通用人工智能行业有很多渊源和师承

    1. Sora模型的核心研发团队规模较小,主要由Tim和Bill带领,他们都是伯克利大学的师兄弟关系。Bill曾是Meta公司谢淇宁的实习生。这个团队延续了之前在伯克利Dali团队的研究方向。

    2. 戴宇森认为,Bill作为95后,代表了OpenAI团队成员普遍年轻的特点。他们具有前瞻性的技术视野和对未来方向的好奇心,这比简单复制别人的工作更重要。

    3. 尽管Recapture等技术在Sora中得到应用,但当时Bill在Meta时这个工作缺乏足够资源支持,被视为"边缘项目"。这反映出OpenAI愿意给予年轻团队试错的空间和包容底层创新的组织文化。

    4. 戴宇森推测OpenAI内部可能不止一个团队在做视频生成模型的工作,充分体现了灵活性。但内部具体协作安排还是未知的揣测。

    5. 季逸超提到,除了Sora所采用的Diffusion路线外,还有如Video Poets代表的Auto-Regressive路线。他希望不同的人才能在多条技术路线上探索,而不是都复制Sora的方式。

    6. 总的来说,OpenAI核心团队成员年轻有为、视野开阔,组织上给予底层创新空间,同时在不同路线上保持多元探索,这些都是嘉宾认为Sora取得突破的重要因素。

    为什么OpenAI能让一个95后Bill去担纲做这个事?体现出年轻组织的活力

    1. 作为投资人,他们更关注如何复制OpenAI这种能够给予年轻人重大项目机会的组织氛围,而不是模仿具体的技术细节。

    2. 让95后的Bill担纲Sora项目,体现了OpenAI对最前沿技术有敏锐的觉察力,不会简单地因为资历或管理职位而分配重要项目。

    3. 在前沿技术领域,可能年轻一代的创新活力比老一代的经验更加重要。OpenAI能给予像Bill这样的年轻人机会,展现了这个年轻组织蓬勃的活力。

    4. 对于一个创业公司来说,能像OpenAI这样放手让最优秀的年轻人推进前沿技术,是值得借鉴和充满信心的一点。

    作为天使投资人如何绘制AI方向的人才地图?(北美AI四大名校)

    1. 北美地区的斯坦福大学、加州伯克利、麻省理工和卡耐基梅隆大学被认为是AI四大名校,在这些学校的著名实验室和教授团队中聚集了众多AI人才。

    2. 在中国,清华大学、上海交通大学、中国科学院大学等高校也培养了不少AI人才。人才的遴选往往呈现出明显的师承关系,如OpenAI的人员源自伯克利大学Dali实验室。

    3. 名校和顶级实验室虽然是人才的摇篮,但戴宇森认为,出类拔萃的人才更多是由于个人卓越的能力和努力,而不太受偶然性影响。

    4. 对于AI创业者,除了技术实力外,是否愿意学习商业、组织和产品等方面的知识同样重要。技术人员如果能全面发展,成为优秀企业家,会是投资人青睐的对象。

    5. 不同学校可能会有不同的风格倾向,如斯坦福更偏向培养创业家,而CMU可能更多培养出CEO型人才。但目前顶尖AI人才都有创业梦想,关键在于他们是否拥有足够资源自由去实现想法。

    关注近期AI届一些人才流动:谢赛宁、何凯明回到学术界;OpenAI创始成员之一Andrej Karpathy离开OpenAI;蒋路从Google去了TikTok

    1. 谢赛宁、何凯明等人从大公司回到学术界,戴宇森认为这反映了学术界和产业界在AI领域的分工差异化。学术界更擅长于探索性研究和种子发现,而产业界则更适合将这些发现落地实现商业价值。不同人才可以根据自身特点选择合适的发展道路。

    2. 对于Andrej Karpathy离开OpenAI一事,戴宇森倾向于不过多传播"八卦"细节,认为可能只是一些理念上的不完全契合。但他高度赞赏Karpathy无私分享知识的行为。

    3. 蒋路从谷歌去TikTok,戴宇森认为反映了字节跳动高度重视AI人才,甚至字节跳动的创始人会亲自与AI人才深入交流。这显示出字节对AI的高度重视程度。

    4. 对于OpenAI选择在这个时间点发布Sora,嘉宾们认为可能只是因为模型已经足够成熟好用,并不一定存在特殊阴谋。时间点的选择更多是出于技术方面的考量。

    5. 季逸超表示,OpenAI发布Sora的时机可能只是因为这一项目在一个阶段已经完成,而OpenAI有足够算力资源可以投入其中,并不需要过多猜测阴谋论。

    采样了很多人的观点以后,关于如何实现Sora,我们目前了解到的信息(模型规模/数据/实现路径)

    1. 模型规模估计 戴宇森根据多方采样,估计Sora的模型规模大概在6B-10B的范围内。他认为从生成质量和生成时间来看,Sora不太可能是一个特别小的模型。 季逸超则基于Sora技术报告中的scaling信息,推测模型规模约为6B左右。他解释说对于给定的算力,先扩大数据规模而不是直接扩大模型规模可能是更合理的选择。

    2. 数据方面的进展 嘉宾们认为,Sora在数据方面可能有重大突破,但具体做法目前是个谜团。他们推测OpenAI可能使用了3D引擎数据、借助GPT-4生成详细caption等方式来增强数据质量。

    3. 关键技术细节有待挖掘 季逸超指出,Sora技术报告中有很多细节是一笔带过的,比如tokenizer、position encoding等,这些细节对模型效果可能至关重要,但目前被忽视。他认为这些或许才是Sora的一些秘密所在。

    4. Sora的三个主要突破 季逸超认为Sora在连续生成长视频(60秒)、支持多种分辨率输出(如1080x1920)以及保持前后一致性等方面取得了主要突破。此外,Sora还展现出一些对世界和物理规律的理解。

    资金规模、算力规模等绝对数量级都不是遥不可及,所有头部大模型公司和大厂都能做,但1年赶上Sora也过于乐观

    1. 资金和算力并不是最大障碍 戴宇森认为,仅有数千万美元的投入和上千张GPU就可以获得足够的算力,这在头部AI公司和一些融资较多的创业公司是可以做到的。资金和绝对算力数量级并不是追赶Sora的最大绊脚石。

    2. 6-12个月追赶有些乐观 虽然资源可及,但实现Sora级别的模型并非易事。戴宇森认为6-12个月的预期"有点乐观",因为即便方向对了,中间的路径障碍可能会耽搁很多时间。他拿GPT-4为例,尽管很多公司2022年底承诺能赶上,但到现在只有Gemini接近。

    3. OpenAI有先发优势 季逸超解释说,OpenAI能走在前面,是因为他们立足于之前的大量技术积累和基建,如GPT、Dall-E等。而其他公司在起点上可能低于OpenAI现有水平,需要更长时间去追赶。

    4. 不只是钱和算力的问题 戴宇森指出,除了资金外,团队对前沿技术的理解程度也至关重要。"你钱也要很有技巧的砸才行",否则只是在浪费资源而已。

    5. 别只追随,要有自己的预判 两位嘉宾都认为,永远追随别人的脚步是短视的,重要的是要有自己对未来发展路径的判断和预判能力,并提前布局。

    6. 融合模型与语言模型是并行路线 季逸超认为语言模型和多模态融合模型目前的人才库还没完全重叠,因此两条技术路线目前可以同时并行推进。

    Sora发布对当前大模型战局的影响(“把战争推到一个新的高度”)

    1. 将大模型竞争推向新高度 戴宇森认为,尽管大家预料到多模态领域会有突破,但Sora的到来时间比预期提前,这"把这个战争给推到了一个新的高度"。各方原有计划都需要重新调整。

    2. 给各行业带来冲击 由于Sora生成的视频质量出人意料地好,给创业公司、应用开发商、娱乐业乃至政府部门都带来了巨大冲击,可能引发更多监管担忧。

    3. 难辨真伪引发监管 戴宇森指出,Sora让视频生成质量达到了"以假乱真"的程度,可能加剧监管部门的关注。此前视频生成技术还无法令人真正混淆。

    4. 数据质量重要性凸显 Sora的突破并非完全依赖于庞大模型,在数据获取、处理等方面可能有重大改进。这将促使业界更加关注数据质量。

    5. "世界模拟器"宏大目标 OpenAI提出"世界模拟器"的愿景,意在用AI模型理解这个世界,这一宏大目标将吸引更多人才和资源投入视频生成领域。

    6. 人才流动加剧 像视频生成专家蒋璐这样的人才可能会受到更多关注,加剧AI人才在公司间的流动。

    为什么嘉宾相信SORA非完全依赖于庞大模型,并且模型大小只有6-10B

    1. 模型规模推测 根据Sora技术报告中的scaling信息,嘉宾们推测Sora的模型规模大约在6B-10B左右。他们认为如果完全依赖于超大规模,Sora的模型参数应该会更大一些。

    2. 生成时间和质量分析 从Sora生成1分钟高质量视频所需的时间(1-2小时)来看,嘉宾们判断Sora模型规模应该不会非常大,否则生成时间会更长。同时,Sora的视频质量虽然出众,但似乎还没到需要天文数字级参数模型的地步。

    3. 数据质量至关重要 嘉宾们多次强调,Sora在数据获取、处理、数据质量方面可能有重大突破,这是它取得卓越表现的关键之一。由此可见,Sora非完全依赖于参数规模。

    4. OpenAI先发优势 OpenAI能走在前面,除了算力外,更多是因为他们立足于过去大量的技术积累和基础设施,如GPT、Dall-E等,这为Sora的训练提供了先发优势。

    5. 模型规模不是瓶颈 嘉宾认为,对于头部公司来说,数千万美元就可以获得足够的算力训练6B-10B规模的模型,算力并非追赶Sora的最大障碍。

    我们距离“世界模拟器”的真实距离

    1. 视频生成模型目前展现出的是一些"涌现"的能力,但距离真正模拟物理世界、社会因果关系等还有很长的路要走。当前展现出的或许只是一些"火花"。

    2. 目前的视频都是基于给定的文本prompt生成的,很难判断模型对物理世界的真正理解程度。评估模型对因果关系把握的一种方式是让它延续一段已有的视频片段。

    3. 视频生成可能需要两种不同的模型 - 一种用于无拘无束的幻想,另一种用于预测现实世界的未来发展。未来或许可以通过prompt来控制模型在这两种模式间切换。

    4. 拥有大量视频数据的公司如抖音、YouTube在训练数据上或有优势,但真正的挑战是从海量数据中挑选高质量样本。另一方面,拥有自有内容平台的公司可以快速获取最新数据,使其模型始终"活着"。

    5. 数据隐私和版权是大公司在使用用户视频数据时需要面对的一个重大问题。

    评估模型对因果关系把握的一种方式是让它延续一段已有的视频片段 是因为:

    1. 如果给定一段完整的视频及其文本描述作为输入,模型可以从训练数据中找到类似的模式并生成与之对应的视频。这相当于"记忆复现"。

    2. 但是,如果只给定视频的一部分(如前5秒),要求模型输出后续的部分(如后5秒),这就需要模型理解前半段中物体运动、人物行为等的因果逻辑,并基于这种理解合理预测后继发展。

    3. 这种"延续"任务的搜索空间更大,对模型对于物理规律、社会常识的建模能力要求更高。简单地基于模式匹配是无法完成这一任务的。

    4. 因此,如果一个模型能够较好地完成延续任务,就说明它在某种程度上掌握了视频中蕴含的诸如物理、社会等因果知识,而不是简单的模式匹配。

    5. 相比于生成一个全新的、不受约束的视频场景,延续现有视频对建模因果关系能力的考验更加直接和有针对性。

    AGI一大瓶颈:大一统模型尚且没有找到可行路径

    1. 目前尚未看到将不同模态(如视觉、语音等)统一训练到同一大模型中能带来明显能力提升的证据。多模态模型的能力目前主要还是来自语言模态,未来可能以类似"缝合"的方式将不同模态模型组合起来。

    2. 实现真正的大一统模型面临着将不同模态的连续信号映射到同一特征空间,以及设计合适的训练目标等诸多技术挑战。

    3. 大一统模型不仅需实现各模态顶尖能力,还需要实现模态间的相互作用和理解,否则用途可能有限。但从另一方面看,过于复杂的黑盒系统也可能带来可解释性和可控性的挑战。

    4. 对GPT-5,嘉宾预测会在减少污染、提高推理效率、理解长文本等方面有所提升,但真正的突破可能需要一个较长的周期。

    5. 尽管大模型领域投入巨大,但应用落地的速度可能不会太快,需要有足够大的突破才能确保有用性。参考自动驾驶等领域,从研究到真正落地可能需要很长一段时间。

    6. 但无论如何,大模型都是各方currentlocal难以错失的重大机遇,会持续获得大量投入作为基建。整个过程可能需要接近十年的周期。

    泡沫不可怕,泡沫会带来基建,为未来的应用打下基础,99%的公司死去、留下1%公司

    1. 他认为泡沫时期虽然有很多公司会破产,但也会为未来留下一些伟大的公司,就像互联网泡沫时代留下了亚马逊、谷歌等科技巨头一样。这种"99%死去、1%存活"的过程是不可避免的。

    2. 他指出,当前大模型领域还远未到达泡沫的疯狂高峰期,真正的大泡沫可能来自未来大模型应用真正落地和上市时。目前的投入主要还是基建阶段。

    3. 对于为什么不等泡沫破裂后再投资,他解释有两点原因:一是泡沫过程中可能会诞生并存活下来的伟大公司;二是投资人需要通过参与才能对这个新兴领域有充分认知,否则难以在泡沫后期把握机会。

    4. 他认为,与纯概念化不同,AI这一波至少已经展现出一些实际应用(如ChatGPT),因此可能有更多公司能在泡沫破裂后存活下来。

    关于投资的思考:为什么投资月之暗面和光年之外?

    1. 他认为,当前AI创业与互联网初期创业有所不同。AI创业门槛更高,需要更强的综合实力,包括技术能力、融资能力、团队完整度等,因为从想法到真正落地需要更长时间和更多资源投入。

    2. 他特别强调了年轻、国际化视野和AI Native(与AI一起成长)这三个团队特征的重要性。他认为这一代AI创业者的使命就落在90后身上,因为他们正处于经验与颠覆勇气的最佳平衡点。

    3. 对于为何只投资月之暗面和光年之外两家公司,他解释主要是由于彼此之前已有良好的合作缘分。在资金有限的情况下,很难对所有潜在的赢家都投资。

    4. 他认为,月之暗面最新的大额融资代表着国内大模型公司已进入"淘汰赛"阶段。拥有数亿美元资金,足够吸引人才并在技术上持续突破,是它们能存活下来的关键。

    5. 戴宇森对月之暗面团队充满信心,认为他们从研究者到组织者、产品经理的转变很成功,一线的技术理解能力将帮助他们在人才吸引和技术突破方面获得优势。

    记得有一次和杨植麟吃饭,他说不希望以后大家提到他觉得是一个技术大牛,他希望是一个做出了很好产品的企业家

    1. 他分享了一次与月之暗面创始人杨植麟吃饭时,杨植麟表达了不希望只被视为技术大牛,而是希望被认可为一个出色的企业家、做出好产品的人。戴宇森认为意识到这一点,是完成从技术人员向企业家角色转变的重要一步。

    2. 他将通用大模型公司比作芯片公司,认为最终可能也只会留下少数龙头公司存活,因为它们需要巨大的技术难度、资金投入和迭代能力,普通消费者也倾向选择最好的产品。

    3. 他列举了在芯片行业中,除英特尔龙头地位外,AMD、ARM和英伟达等公司分别采取了价格战、低功耗和verticalization(垂直领域专精)三种不同的生存策略。

    4. 他认为,在大模型行业中,也可能会出现这三种策略的公司存在:一是做低成本模型;二是以小尺寸、低功耗见长;三是在某些垂直领域做到极致专业化。 (一是做低成本模型;二是以小尺寸、低功耗见长;三是在某些垂直领域做到极致专业化。)

    5. 但他强调,做通用大模型这个"AI处理器"的事情,最终可能也只会剩下极少数龙头企业,因为它是一个资金和技术密集型的赛道。

    大模型公司的出路问题

    1. 大模型公司的出路在于能否从它们创造的价值中收取一部分。如果大模型真的能为人们创造价值,那么作为价值创造的核心,大模型公司就应该能够从中获得足够的收益。

    2. 伟大的公司需要创造价值和做出好的产品,而不仅仅是伟大的技术。好的技术是好产品的重要组成部分,但同样需要有做产品和商业化的能力,将技术进一步完善为产品。

    3. 在技术还不够成熟的情况下,不应过度追求雕虫小技。相反,应该假设总有一天会出现"神一般的模型",并思考在那种情况下能做什么样的应用。

    4. 现阶段的应用可能给我们带来很多启发和原型,但离真正完善的产品还有距离。应用可以做模型目前无法做到的事情,比如将多个模型串联使用。

    5. 除了做好模型本身,另一个思路是做"模型的代入物",帮助用户更好地利用现有模型,提供更好的界面、生成能力和交互体验。

    6. 对于不愿意投资资本密集型的大模型公司的投资者,戴宇森表示理解,因为每个人都有自己的风格和偏好。

    AI应用出现的时间点可能比移动互联网要慢,因为它需要模型到达一定能力程度,才能从没用涌现成有用,但是当它一旦变得有用,扩散速度可能远快于移动互联网应用

    1. AI应用出现"有用"的时间点可能比移动互联网要慢,因为它需要等待模型能力达到一定程度。但一旦AI应用变得有用,其扩散速度可能会远快于移动互联网应用。

    戴宇森认为,与移动互联网需要同时扩散软硬件不同,只要设备不变,足够有用的AI应用就可以在短期内席卷数亿用户,因为基础设施已经就绪。

    1. 新技术出现时,通常先是"新瓶装旧酒",用新技术解决老问题。AI现在也处于这一阶段,未来可能出现全新的商业模式。

    戴宇森举例说,移动互联网初期人们想在手机上重复PC时代的浏览器、搜索等,但真正的创新如社交网络、电商平台等是后来由创业公司做出的。他预计,待AI深度渗透后,人机、机机之间的协作方式可能产生全新模式。

    1. 对AI发展需要有耐心,短期往往高估,长期低估。很多所谓"不靠谱"的机会,可能只是为时过早。

    戴宇森认为,受移动互联网飞速发展影响,人们对AI发展节奏有过高预期。但AI可能需要更长时间,许多看似不靠谱的机会未来可能会应验,只是目前为时尚早。

    1. 季逸超类比移动互联网发展,认为AI现在可能处于手机出现后,但应用生态尚未成熟的阶段,离真正爆发可能还需5年时间。

    每一次OpenAI升级会带来VC投资的结构性调整吗?

    1. OpenAI模型的升级对VC投资会带来结构性调整,但更多机会也会随之产生。

    戴宇森认为,OpenAI模型能力越强,就能解决更多问题创造更多价值,这些价值很多将被创业公司获取。他建议创业公司不要挡在大厂的主航道上,而是寻找轨道之外的机会。

    1. 每一次AI突破都会要求投资人跨出原有舒适圈,全面了解整个AI行业的发展。

    季逸超表示,以往AI发展是逐步延伸,但现在像ChatGPT这样的大型模型,可能一次就颠覆了许多细分领域,迫使每个人都转向多模态的大领域。这给创业者带来前所未有的工具,也对技术专家提出了更高要求。

    1. VC很难精准判断AI技术创新,但可以依赖最顶尖的人才视野来发现未来机会。

    戴宇森认为,VC无法胜过创业者对技术的理解,因此更重要的是找到最优秀的人才,让他们引领发现未来可能。过于精细的技术判断和预测很难做到。

    1. 2023年全球对AI的投资有可能比2022年多一个数量级。

    戴宇森预计,2023年全球对AI的投资或达到数千亿美元,国内则主要来自于一些战投基金的持续加码。当前或许还处于与OpenAI赛跑、力求接近的阶段。

    Google推出了开源模型,对于整个市场会有什么样的影响?

    1. 开源Gemma对做应用的公司是利好,但对专注开发开源大模型的公司(如Anthropic)可能会带来一定压力。

    戴宇森认为,开源模型能让更多人使用大模型技术开发应用,但同时也会给开源大模型公司带来竞争压力。

    1. Gemma模型本身的影响力有限,与现有的开源优秀模型(如LLaMA)相比没有显著差异。

    季逸超评价说,Gemma并不是一个真正的多模态大模型,在能力上与LLaMA等差别不大。它更多的是谷歌重返开源领域的象征性动作。

    1. 即使OpenAI突然开源GPT-4,对国内公司的冲击也不太直接,因为还需考虑对齐(alignment)的问题。

    季逸超解释说,对齐问题会让国内公司不敢直接使用OpenAI的开源模型,所以OpenAI开源顶尖模型对国内公司的直接影响也有限。

    1. 在目前环境下,最佳创业者画像是"年轻的AI native",有海外经历,能组建完整团队的连续创业者。

    戴宇森认为,当前AI创业环境竞争加剧,创始团队的综合实力尤为重要,优秀创业者应具备AI背景、国际视野和连续创业的经验。

    AI越来越强悍,给人类一点建议吧

    1. 戴宇森认为,人类应该专注于需要高度原创性思维的工作内容,而不是被AI所擅长的信息"缝合"类工作。

    他解释说,未来大量非原创性内容可能会被AI创造或完成,人类应该转向必须人与人互动或需要创造力的领域。过于机械性的工作很可能被AI所替代。

    1. 戴宇森呼吁保持好奇心和开放心态,主动尝试了解和使用新技术。

    他举例说,无论是哪个行业的从业者,都应该去关注和学习与AI技术相关的知识和应用。好奇心对于迎接技术革命非常重要。

    1. 季逸超建议人类要好好记录自身生活,为未来更强大的AI做好数据准备。

    他解释说,人是"一天不如一天",而AI会日益强大。通过详细记录现有生活,可以为未来AI提供宝贵的"带路"数据,在某种程度上实现"数字永生"。

    1. 戴宇森就季逸超的观点进行了扩展和打趣,讽刺人类目前的数据记录极为匮乏。

    他开玩笑说发明了"数字永生"技术的坏消息是,我们过去几十年的生活数据都没存下来。

    雨森,你为什么喜欢发即刻?

    1. 我们是即刻的股东

    2. 对于当前阶段的AI公司估值,人才密度是一个重要考量因素。

    戴宇森解释说,由于AI技术尚未大规模扩散,顶尖人才与普通人才之间的价值差距很大。估值很大程度上反映了一家公司的人才储备。

    1. 除了人才因素,AI公司估值还与其所要解决问题的规模大小、难度以及所需资源相关。

    他认为,如果一家公司的顶尖团队要解决一个大而难的问题,需要大量资源投入,那它的估值自然也会更高。

    1. 当前AI已不再局限于垂直领域,而是切实进入普通生活场景。

    戴宇森举例说,像ChatGPT这样的大模型已经具备了通用性和实用性,可以应用于翻译、问答等多种日常场景,覆盖面远超之前。

    1. 大模型的通用性源于它们可以通过代码与外部工具交互、发挥潜力。

    他解释道,语言模型能够编写代码调用外部功能,这使得它们的应用场景更加广泛,而非像自动驾驶那样高度专用化。

    1. 之前OpenAI百亿美元的探索才为ChatGPT这样的突破夯实了基础。

    对于Sora至今不了解但是很想了解的地方

    1. 戴宇森提出了对Sora所需训练数据的疑问。

    他表示很想了解Sora需要什么样的训练数据才能达到现有的出色水平。除了一些常规的3D引擎、高质量视频等,是否还有一些人们没有意识到的关键数据来源。

    1. 戴宇森对Sora对现实世界模拟的能力持开放态度。

    他认为,只要Sora能对真实世界给出足够合理的生成效果,即使没有完全理性化理解,也已足以解决大量问题。因为人脑中对未来的预测,本质上也是一种"视频式"的模拟过程。他对此很感兴趣。

    1. 季逸超最关注Sora为开发者提供的接口和可控性。

    他类比了ChatGPT令多种应用应运而生的"通用性"质变,希望了解Sora是否也能为视觉领域的各种任务提供通用接口,使开发者能基于少量示例数据完成新任务。

    1. 两人都承认,目前对Sora的了解仍处于"盲人摸象"的猜测阶段。

    戴宇森坦言,他们目前难以真正了解Sora的内部技术细节,只能从可信渠道获取一些信息并做出猜测。他期待未来能有更多了解。

    1. 戴宇森开玩笑说,有时人们也常常"胡说八道",只是没有意识到而已。

    这看似无关的玩笑,或许也是在调侃当前对尖端AI缺乏透彻了解的状态。